查看原文
其他

深度学习(Deep Learning)是否已经让传统的机器学习无用了?

2017-01-01 AI科技大本营


作者: 威廉·沃海思(William Vorhies)

编译: AI100

原文地址: http://www.datasciencecentral.com/m/blogpost?id=6448529%3ABlogPost%3A498030



        摘要:如今,数据科学方面的新闻已被人工智能(AI)和深度学习(DeepLearning)所主导。有些人不禁在想,深度学习是否已经让传统的机器学习变得无关紧要了呢?在本文中,我们将就传统的机器学习和深度学习这两方面展开讨论。

        不久前在问答网站Quora上,我看到某位有志向的数据科学家发问:这段时间以来,既然深度学习算法赢了数据分析竞赛网站Kaggle 上所有的比赛,研究传统的机器学习方法还有意义吗?深度学习是否已经让传统的机器学习无用了?

        从以下两个方面来说,我能理解这位数据科学家这样问的原因。首先,如果你能看一下最近Kaggle网站上的比赛题目的话,很容易得出结论,只有运用深度学习的方法才能获胜。第二,如果你注意观察数据科学方面的文章的话,你会发现,我们正被各种宣扬深度学习的信息所包围。特别是在将深度学习应用于人工智能之后,就很少有其他的新算法出现了。

        我认为,就数据科学来说,我们还存在着某些深层次的误解,这让我在某些时刻感到震惊。


重新定义问题

需要明确的一点是,尽管这段时间以来我们在深度学习方面倾注了大量的心血,它并不是我们的全部,仍然只是算法工具的一部分,这是非常重要的。同样重要的是,我们需要明白,深度学习并不是独立于传统机器学习(ML)的,而是机器学习的一个分支。

几个月以前,我们论述了人工智能、深度学习和机器学习的区别。如果你非常感兴趣的话,你或许会发现,那次关于人工智能、深度学习和机器学习区别的讨论是一个很好的开端,尽管只是浅层次的讨论。最近,尽管有人试图为机器学习做出明确的定义,大多数人习惯上仍然会用机器学习代指那些应用于数据集中以寻找某种数据模式的所有电脑算法。这几乎包含了所有形式的数据科学算法、有监督学习、无监督学习、分割、分类或回归。


        确实,我省去了某些重要的信息,特别是在人工智能方面,如信息检索算法(IR)。信息检索算法是现今包括人工智能程序沃森(Watson)等在内的一系列新成就的核心算法。但是,我所列举出的都是最基本的工具。与此同时,机器学习的每一项还都会包含很多不同的变体,如果一一列举的话,无疑会十分冗长。

        需要明白的很重要的一点是,我们所说的深度学习(DL),实际上是人工神经网络(ANNs)的系列变体。人工神经网络至少有28个不同的构架,几乎每个不同的构架都有多个隐藏图层。我们将这些隐藏图层称为“深层”,“深度学习”的概念便由此诞生。于是,我们的图表应该是下面的样子:


        在这里,我之所以特别将循环神经网络(RNNs)和卷积神经网络(CNNs)从人工神经网络(ANNs)的深度范畴中分类出来,是因为这两个神经网络非常关键。正是由于循环神经网络,才使得自然语言处理(NLP)中的绝大多数进步成为可能,如聊天机器人SiriAlexaCortana附加自动翻译功能、语音分析功能和文本文件分析功能。另一方面,卷积神经网络则为图像处理过程带来了诸多的进步,并在一定程度上影响着自然语言处理过程。

        如果你想成为图像和语言处理方面的深度学习专家,你可以试着在人工神经网络方面成就一番事业,尤其是在循环神经网络和卷积神经网络这两个分支方面。但是,这并不意味着其他方面的研究没有价值。

 

诸如Kaggle等的比赛

        数据分析竞赛网站Kaggle以及其他类似的网站对于数据科学来说是一个巨大的资源宝库,它们给予了高级数据科学家和初级数据科学家探讨各种各样问题的空间。参与被认为是DS中最好的学习机会之一。但是,你需要理解这些比赛,如一级方程式赛车(FormulaOne racing)。通常,这些比赛追求的是结果的绝对最大精度。有些比赛,比如“一级方程式赛车”等,与我们的日常生活并没有什么共同之处。

        思索一下。如果你看看排行榜前10或者前20的提交方案,你会发现,最终结果的不同,通常只取决于第三或者第四位小数点。精确性就相当于赛车中的优势,成败只在毫厘之间。但是,这与你在商业中遇到的大多数数据科学问题均不相关。事实上,倾注大量心血以求得准确性的少量提高,对于提升商业经济的发展来说是完全不可能的。

确实,最近Kaggle上的许多比赛含有非结构化数据,需要借助深度学习的算法,如RNNsCNNs。安东尼·戈德布卢姆(AnthonyGoldbloom)是的创始人兼首席执行官,他发现:由于数据分为结构性数据和非结构性数据,最终获胜的技巧是有所不同的。

对于结构化的数据比赛,安东尼说:“过去,只要使用随机森林算法,就能取得胜利。但是在过去的六个月中,一种叫做XGboost的新算法突然出现。在结构化的数据比赛中,只要使用XGboost算法,几乎就能取得胜利。”然而近来,安东尼最新发现,在结构化的数据比赛中,主要应用的是另一种算法方案,他将其称之为“手工算法”。这种算法非常依赖领域知识和随机的假设检验。

对于非结构化的数据比赛,则依然是循环神经网络(RNNs)和卷积神经网络(CNNs)风行的时代。由于 Kaggle平台上的非结构化数据问题占据相当高的比例,我们很容易理解,最初的观察人员“为什么还要使用其他的算法”的疑问。.

 

深度学习人工神经网络的业务缺陷

        之前我们提到过,人工神经网络(ANNs)有28个不同的构架,这些构架大都相当专门化、具体化,包含许多循环神经网络(RNNs)和卷积神经网络(CNNs)所必要的隐藏图层。如果你的业务中包含需要分析的图像或NLP非结构化数据,那么,循环神经网络(RNNs)和卷积神经网络(CNNs)就是解决之道。

 

        但是请牢记:

  • 循环神经网络(RNNs)和卷积神经网络(CNNs)很难训练,有时甚至不能被训练。

  • 如果你正在建立一个循环神经网络(RNNs)或卷积神经网络(CNNs),那么你的程序调试时间很可能会花费数周、甚至是数月。

  • 循环神经网络(RNNs)和卷积神经网络(CNNs)需要极其大量的标记数据来实现其训练过程,这对很多公司来说非常困难或者成本太高。

 

        事实上,从头重新创建循环神经网络(RNNs)和卷积神经网络(CNNs)的困难还是非常大的,市场正飞速地朝着通过应用程序编程接口(API)使用预制模型的方向发展。这些模型通常来源于亚马逊(Amazon)、微软(Microsoft)、IBM、谷歌(Google)等公司。

        当你在诸如“自动化的客户服务”等内部系统运用深度学习解决方案的时候,上述提到的API方案将会十分实用。如果你需要一个便携式应用程序,比如是在物联网环境下,请注意,这通常意味着你不需要部署软件解决方案,而是采用编码在专用芯片上的循环神经网络算法(RNNs)或卷积神经网络算法(CNNs)。专用芯片可以是图形处理器(GPUs),也可以是现场可编程门阵列(FPGAs)等。

 

 真正的数据科学市场

        之前我们已经写过,目前有两种不同的数据科学市场。“大网络用户”数据科学世界主要专注于旧金山(SanFrancisco)、洛杉矶(LA)、波士顿(Boston)以及纽约(NewYork)等重要的枢纽中心,对于它们来说,代码就是产品。  这样的市场想要并且需要最前沿的数据科学技术,将其与用户结合起来,从而使得自己与竞争对手区分开来。想一下谷歌(Google)、亚马逊(Amazon)、eHarmony、和MOOGs。如果你想专门研究深度学习、非结构化NLP应用程序和图像数据,那么你就需要到上述提到的这些地方去学习。

        但是,当下超过80%的数据科学应用程序仍然是对消费者行为的预测:消费者为什么会来、为什么会停留、为什么会离开、下次会买什么或者下次很可能会买什么。这是高价值世界的相对直接的评分系统,它存在于所有的面向客户的系统中,为客户推荐要购买的商品、解决问题的方法和CSR会话的最低报价。

        还有就是,当下非常常见的供应链预测,主要工作对象是时间序列数据、预测维修中的设备监控方案以及某些主要应用于网站和市场计划中的地理空间算法。问题就在于,基本上上述所有的应用程序,都需要在传统的机器学习工具的协调配合下,才能有效地运行。显然,机器学习并未过时。

        尽管在结构化数据中引入小部分非结构化数据后,深度学习人工神经网络(ANNs)出现了一些问题,从效率的角度看,显得不实用。但是,你可以在低至7分钟内建立起一个完美而可用的预测模型(可以,通常需要花费几个小时)。从投入的时间和其所实现的业务价值角度来看,该模型的准确性是可以接受的。它不需要像循环神经网络(RNNs)和卷积神经网络(CNNs)算法那样,需要花费数周、甚至是数月的时间。

        所以,深度学习绝对没有、将来也不会使传统的机器学习方法过时、无用。相应地,要想成为一名数据科学家,你必须首先全部掌握传统机器学习的方法。


        关于作者:

        比尔·沃海思(BillVorhies)是数据科学中心的编辑主任,自2001年以来开始成为一名数据科学家兼商业预测模型建立者。可以通过以下方式联系到作者:

Bill@DataScienceCentral.com



欢迎访问AI100微信公众号:





点击↙阅读原文↙查看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存